data_total <- read_delim("data_integration2016.csv", ";", escape_double = FALSE,
trim_ws = TRUE)
# remove not completed rows
data_done <- subset(data_total, MAXPAGE >= 7)
# remove rows time > 60
cut_time_effort_above <- 60
count_wrong <- nrow(subset(data_done, BE03_01 > cut_time_effort_above))
data <- subset(data_done, BE03_01 <= cut_time_effort_above)
decimal <- 2
# Function declaration translate öüä
translateUmlaute <- function(x) {
x <- gsub("<e4>", "ä", x)
x <- gsub("<f6>", "ö", x)
x <- gsub("<fc>", "ü", x)
return(x)
}
# tolower with exception handling
tryTolower = function(x) {
# create missing value this is where the returned value will be
y = ""
test <- x
# tryCatch error
try_error = tryCatch(tolower(x), error = function(e) e)
# if not an error
if (!inherits(try_error, "error"))
y = tolower(x)
return(y)
}
# recode: 1,2,3,4,5 -> 5,4,3,2,1
recode = function(x) {
return(6 - x)
}
# calculate self-efficacy score
data <- dplyr::mutate(data, SE = SE01_01 + SE01_02 + SE01_03 + SE01_04 + SE01_05 +
SE01_06 + SE01_07 + SE01_08 + SE01_09 + SE01_10)
# calculate Big Five Factors F_01 Extraversion
data <- dplyr::mutate(data, BF_F_01 = round((recode(BF01_01) + BF01_06)/2, decimal))
# F_02 Verträglichkeit
data <- dplyr::mutate(data, BF_F_02 = round((recode(BF01_04) + BF01_09)/2, decimal))
# F_03 Gewissenhaftigkeit
data <- dplyr::mutate(data, BF_F_03 = round((recode(BF01_03) + BF01_08)/2, decimal))
# F_04 Neurotizismus
data <- dplyr::mutate(data, BF_F_04 = round((recode(BF01_05) + BF01_10)/2, decimal))
# F_05 Offenheit
data <- dplyr::mutate(data, BF_F_05 = round((recode(BF01_07) + BF01_02)/2, decimal))
# calculate integration
data <- dplyr::mutate(data, INT = round((AL05_01 + AL05_02 + AL05_03)/3, decimal))
# calculate 3K model
data <- dplyr::mutate(data, KKK_01 = round((KK03_02 + KK03_03 + KK03_06)/3,
decimal))
data <- dplyr::mutate(data, KKK_02 = round((KK03_01 + KK03_05 + KK03_07)/3,
decimal))
data <- dplyr::mutate(data, KKK_03 = round((KK03_04 + KK03_08)/2, decimal))
data <- dplyr::mutate(data, KKK = round((KKK_01 + KKK_02 + KKK_03)/3, decimal))
attach(data)
Ziel dieser Umfrage ist es Faktoren für die Bereitschaft von Integration zu finden. Mögliche Faktoren dabei sind: Selbstwirksamkeit, Offenheit des Big-Five Tests, das 3-K-Modell nach Kehr und die grundlegende Einstellung zur Integration.
Anmerkung: Alle Ergebnisse werden auf 2 Nachkommastellen gerundet
Zuerst soll eine deskriptive Analyse der erhobenen Daten durchgeführt werden.
Dieser Abschnitt soll die Stichprobe analysieren.
length_total <- nrow(data_total)
length <- nrow(data)
Der Umfang der Stichprobe beträgt insgesamt 392 Datensätze. Davon wurden insgesamt 340 gültige Fragebögen abgeschlossen.
count_men <- nrow(subset(data, AL03 == 1))
count_women <- nrow(subset(data, AL03 == 2))
count_na <- length - count_men - count_women
gender_counts <- c(count_men, count_women, count_na)
percentages_gender <- round(gender_counts/sum(gender_counts) * 100)
mean_gender <- mean(AL03)
median_gender <- median(AL03)
Von den insgesant 340 teilnehmenden Personen waren 83 Männer (24 Prozent) und 250 Frauen (74 Prozent). 7 Personen wollten keine Angabe machen (2 Prozent).
labels <- c("Männer", "Frauen", "Keine Angabe")
labels <- paste(labels, percentages_gender)
labels <- paste(labels, "%", sep = "")
pie(gender_counts, labels = labels)
Nun soll das Alter der teilnehmenden Personen untersucht werden. Der Mittelwert beträgt 26.26 Jahre und der Median liegt bei 21 Jahren. Der/Die jüngste Teilnehmer/-in ist 16 und der/die Älteste ist 72. Die Varianz hat dabei einen Wert von 137.11 mit einer Standardabweichung von 11.71.
hist(AL02_01, breaks = seq(min(AL02_01), max(AL02_01), by = 1), main = "Histogramm: Alter",
xlab = "Alter (nicht gruppiert)", ylab = "Häufigkeit")
hist(AL02_01, breaks = seq(15, 75, by = 5), main = "Histogramm: Alter", xlab = "Alter (in 5-er Schritten gruppiert)",
ylab = "Häufigkeit")
boxplot(AL02_01, main = "Boxplot: Alter", xlab = "Alter", horizontal = TRUE)
Die Berufe sollen auch analysiert werden, vor allem im Hinblick auf die Anzahl der Studenten.
students = data[grep("(stud|Stud)", data$AL04_01), ]
count_students = nrow(students)
count_other = length - count_students
profession_counts <- c(count_students, count_other)
percentages_profession <- round(profession_counts/sum(profession_counts) * 100)
In der Stichprobe waren 218 Studenten (64 Prozent).
labels <- c("Studenten", "Sonstiges")
labels <- paste(labels, percentages_profession)
labels <- paste(labels, "%", sep = "")
pie(profession_counts, labels = labels)
Jetzt sollen die Faktoren/Prädiktoren beschrieben und analysiert werden.
Der Testwert für Selbstwirksamkeit ergibt sich durch ein Aufsummieren aller 10 Fragen (Antwortmöglichkeiten 1-5). Dadurch kann eine Punktzahl von 10 bis 50 resultieren. 1
Der Median beträgt dabei 36 und der Mittelwert 35.59. Die Varianz hat dabei einen Wert von 26.29 mit einer Standardabweichung von 5.13.
boxplot(SE, main = "Boxplot: Selbstwirksamkeit", xlab = "Selbstwirksamkeit",
horizontal = TRUE)
Pro Dimension werden die Antworten der beiden Items gemittelt, wobei das negativ gepolte Item zuerst rekodiert werden muss. 2
labels_bf = c("Extraversion", "Verträglichkeit", "Gewissenhaftigkeit", "Neurotizismus",
"Offenheit")
bf_factors_mean <- round(c(mean(BF_F_01), mean(BF_F_02), mean(BF_F_03), mean(BF_F_04),
mean(BF_F_05)), decimal)
bf_factors_median <- round(c(median(BF_F_01), median(BF_F_02), median(BF_F_03),
median(BF_F_04), median(BF_F_05)), decimal)
bf_factors_var <- round(c(var(BF_F_01), var(BF_F_02), var(BF_F_03), var(BF_F_04),
var(BF_F_05)), decimal)
bf_factors_sd <- round(c(sd(BF_F_01), sd(BF_F_02), sd(BF_F_03), sd(BF_F_04),
sd(BF_F_05)), decimal)
bf_df <- data.frame(Faktor = labels_bf, Mittelwert = bf_factors_mean, Median = bf_factors_median,
Varianz = bf_factors_var, Standardabweichung = bf_factors_sd)
table_bf <- head(bf_df)
knitr::kable(table_bf, format = "html")
| Faktor | Mittelwert | Median | Varianz | Standardabweichung |
|---|---|---|---|---|
| Extraversion | 3.47 | 3.5 | 0.86 | 0.93 |
| Verträglichkeit | 2.95 | 3.0 | 0.67 | 0.82 |
| Gewissenhaftigkeit | 3.57 | 3.5 | 0.70 | 0.84 |
| Neurotizismus | 3.58 | 3.5 | 0.94 | 0.97 |
| Offenheit | 3.22 | 3.0 | 0.66 | 0.81 |
op <- par(mar = c(4, 8, 4, 2) + 0.1)
boxplot(BF_F_01, BF_F_02, BF_F_03, BF_F_04, BF_F_05, names = labels_bf, horizontal = TRUE,
las = 2)
par(op)
ggplot(bf_df, aes(Faktor, Mittelwert)) + labs(title = "Big-Five Faktoren: Mittelwerte") +
coord_cartesian(ylim = c(0, 5)) + geom_bar(stat = "identity")
ggplot(bf_df, aes(Faktor, Median)) + labs(title = "Big-Five Faktoren: Mediane") +
coord_cartesian(ylim = c(0, 5)) + geom_bar(stat = "identity")
ggplot(bf_df, aes(Faktor, Varianz)) + labs(title = "Big-Five Faktoren: Varianzen") +
coord_cartesian(ylim = c(0, 1)) + geom_bar(stat = "identity")
ggplot(bf_df, aes(Faktor, Standardabweichung)) + labs(title = "Big-Five Faktoren: Standardabweichungen") +
coord_cartesian(ylim = c(0, 1)) + geom_bar(stat = "identity")
Es wird der Durchschnitt aller Items genommen.
Der Median beträgt hier 3.86 und der Mittelwert 3.78. Die Varianz hat dabei einen Wert von 0.5 mit einer Standardabweichung von 0.71.
boxplot(KKK, main = "Boxplot: 3-K-Modell", xlab = "3-K-Modell", horizontal = TRUE)
Es wird der Durchschnitt der drei Items genommen.
Der Median beträgt hier 3.67 und der Mittelwert 3.55. Die Varianz hat dabei einen Wert von 0.8 mit einer Standardabweichung von 0.9.
boxplot(INT, main = "Boxplot: Einstellung zur Integration", xlab = "Einstellung zur Integration",
horizontal = TRUE)
Ebenfalls die abhängigen Variablen sollen deskriptiv untersucht werden.
Der Median beträgt hier 4 und der Mittelwert 4.14. Die Varianz hat dabei einen Wert von 0.98 mit einer Standardabweichung von 0.99.
boxplot(KK03_09, main = "Boxplot: Integrationsbereitschaft", xlab = "Integrationsbereitschaft",
horizontal = TRUE)
Hier kann man bereits erkennen, dass das schwierige Thema Integration vorurteilsbehaftet ist und dadurch die Ergebnisse verzerrt sein könnten.
Der Median beträgt hier 8.5 und der Mittelwert 11.13. Die Varianz hat dabei einen Wert von 82.72 mit einer Standardabweichung von 9.1.
boxplot(BE03_01, main = "Boxplot: Integrationsbereitschaft", xlab = "Integrationsbereitschaft (Zeitaufwand in Stunden)",
horizontal = TRUE)
Um eine enorme Streuung zu verhindern, wurden Datensätze mit einem Zeitaufwand von über 60 Stunden (ca. 2 volle Tage) als nicht gültige Datensätze angenommen und fließen daher nicht in die Analyse ein. Dies war insgesamt bei 6 Datensätzen der Fall. Am Ende wird gezeigt, dass dies keinen Unterschied im Ergebnis macht.
# gather data
regression_data_1 <- dplyr::select(data, BF_F_05, SE, KKK, INT, KK03_09)
regression_data_2 <- dplyr::select(data, BF_F_05, SE, KKK, INT, BE03_01)
Es soll nun die Korrelation zwischen den Prädiktoren und den Variablen gezeigt werden.
labels = c("Openness", "Selbstwirksamkeit", "3-K-Modell", "Einstellung zur Integration",
"Bereitschaft")
cor_1 <- round(cor(regression_data_1), decimal)
rownames(cor_1) <- labels
colnames(cor_1) <- labels
knitr::kable(cor_1, format = "html", table.attr = "class=\"table-th-left\"")
| Openness | Selbstwirksamkeit | 3-K-Modell | Einstellung zur Integration | Bereitschaft | |
|---|---|---|---|---|---|
| Openness | 1.00 | 0.09 | 0.25 | 0.17 | 0.21 |
| Selbstwirksamkeit | 0.09 | 1.00 | 0.13 | 0.07 | 0.07 |
| 3-K-Modell | 0.25 | 0.13 | 1.00 | 0.57 | 0.72 |
| Einstellung zur Integration | 0.17 | 0.07 | 0.57 | 1.00 | 0.56 |
| Bereitschaft | 0.21 | 0.07 | 0.72 | 0.56 | 1.00 |
Hier ist vor allem die Korrelation zwischen dem 3-K-Modell und der Bereitschaft, mit einem Wert von 0.72, auffällig. Die Korrelation von grundlegender Einstellung zur Integration zur Bereitschaft hat nur einen Wert von 0.56. Leider weisen sowohl Openness als auch Selbstwirksamkeit eine sehr geringe Korrelation zur Bereitschaft auf, mit Werten 0.21 und 0.07.
cor_2 <- round(cor(regression_data_2), decimal)
rownames(cor_2) <- labels
colnames(cor_2) <- labels
knitr::kable(cor_2, format = "html", table.attr = "class=\"table-th-left\"")
| Openness | Selbstwirksamkeit | 3-K-Modell | Einstellung zur Integration | Bereitschaft | |
|---|---|---|---|---|---|
| Openness | 1.00 | 0.09 | 0.25 | 0.17 | 0.10 |
| Selbstwirksamkeit | 0.09 | 1.00 | 0.13 | 0.07 | 0.05 |
| 3-K-Modell | 0.25 | 0.13 | 1.00 | 0.57 | 0.51 |
| Einstellung zur Integration | 0.17 | 0.07 | 0.57 | 1.00 | 0.31 |
| Bereitschaft | 0.10 | 0.05 | 0.51 | 0.31 | 1.00 |
Hier bildet sich ein ähnliches Bild. Openness und Selbstwirksamkeit weisen eine sehr geringe Korrelation zur Bereitschaft auf, mit Werten 0.1 und 0.05. Leider hat auch die Einstellung zur Integration nur eine geringe Korrelation damit (0.31). Lediglich das 3-K-Modell sticht wieder heraus, trotz eines mittelmäßigen Werts von 0.51.
Nun soll versucht werden einen Zusammenhang zwischen Prädiktoren und Variablen mittels Regressionsanalysen herzustellen.
# Standardize regression_data
regression_data_1_scaled <- data.frame(scale(regression_data_1))
regression_data_2_scaled <- data.frame(scale(regression_data_2))
model1 <- lm(KK03_09 ~ SE + BF_F_05 + KKK + INT, data = regression_data_1_scaled)
summary(model1)
##
## Call:
## lm(formula = KK03_09 ~ SE + BF_F_05 + KKK + INT, data = regression_data_1_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.88543 -0.37971 -0.00344 0.46431 1.99800
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.020e-16 3.662e-02 0.000 1.000
## SE -1.900e-02 3.703e-02 -0.513 0.608
## BF_F_05 2.436e-02 3.796e-02 0.642 0.522
## KKK 5.852e-01 4.581e-02 12.774 < 2e-16 ***
## INT 2.239e-01 4.480e-02 4.999 9.32e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6752 on 335 degrees of freedom
## Multiple R-squared: 0.5495, Adjusted R-squared: 0.5441
## F-statistic: 102.1 on 4 and 335 DF, p-value: < 2.2e-16
model1_coef <- round(coef(model1), decimal)
Hier lässt sich erkennen, dass nur das 3-K-Modell und die generelle Einstellung zu Integration im Modell einen statistisch signifikanten Einfluss auf die Integrationsbereitschaft haben. Dabei besteht ein Bestimmtheitsmaß (R-Squared) von 0.55.
anova(model1)
## Analysis of Variance Table
##
## Response: KK03_09
## Df Sum Sq Mean Sq F value Pr(>F)
## SE 1 1.811 1.811 3.9731 0.04704 *
## BF_F_05 1 13.648 13.648 29.9351 8.762e-08 ***
## KKK 1 159.419 159.419 349.6722 < 2.2e-16 ***
## INT 1 11.392 11.392 24.9877 9.319e-07 ***
## Residuals 335 152.730 0.456
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Aus der ANOVA-Tabelle kann man erkennen, dass alle Faktoren signifikant sind, was unser Modell wiederum bestätigt
model2 <- lm(BE03_01 ~ SE + BF_F_05 + KKK + INT, data = regression_data_2_scaled)
summary(model2)
##
## Call:
## lm(formula = BE03_01 ~ SE + BF_F_05 + KKK + INT, data = regression_data_2_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.5889 -0.5338 -0.1551 0.3514 5.1782
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.863e-17 4.679e-02 0.000 1.000
## SE -1.447e-02 4.732e-02 -0.306 0.760
## BF_F_05 -3.227e-02 4.851e-02 -0.665 0.506
## KKK 5.121e-01 5.854e-02 8.748 <2e-16 ***
## INT 1.869e-02 5.724e-02 0.327 0.744
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8627 on 335 degrees of freedom
## Multiple R-squared: 0.2645, Adjusted R-squared: 0.2557
## F-statistic: 30.12 on 4 and 335 DF, p-value: < 2.2e-16
model2_coef <- round(coef(model1), decimal)
Hier lässt sich erkennen, dass nur das 3-K-Modell im Modell einen statistisch signifikanten Einfluss auf die Integrationsbereitschaft haben. Dabei besteht ein Bestimmtheitsmaß (R-Squared) von 0.26.
anova(model2)
## Analysis of Variance Table
##
## Response: BE03_01
## Df Sum Sq Mean Sq F value Pr(>F)
## SE 1 0.795 0.795 1.0683 0.30207
## BF_F_05 1 2.981 2.981 4.0052 0.04617 *
## KKK 1 85.810 85.810 115.2931 < 2e-16 ***
## INT 1 0.079 0.079 0.1066 0.74420
## Residuals 335 249.334 0.744
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hier wird nur das 3-K-Modell als signifikant markiert, was sich mit den bereits beschriebenen Erkenntnissen deckt.
data_komponenten <- dplyr::select(data, KKK_01, KKK_02, KKK_03, KK03_09, BE03_01)
data_komponenten_scaled <- data.frame(scale(data_komponenten))
Da das 3-K-Modell einen statistisch signifikanten Einfluss hat, sollen die einzelnen Komponenten auch noch einmal gesondert analysiert werden.
Nullhypothese:
\(H_{0}\): Keiner der Komponenten hat einen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese:
\(H_{1}\): Mindestens einer der Komponenten hat einen Einfluss auf die Integrationsbereitschaft.
labels <- c("Bauch", "Kopf", "Hand", "Bereitschaft Fragen", "Bereitschaft Zeitaufwand")
cor_komp <- round(cor(data_komponenten), decimal)
rownames(cor_komp) <- labels
colnames(cor_komp) <- labels
knitr::kable(cor_komp, format = "html", table.attr = "class=\"table-th-left\"")
| Bauch | Kopf | Hand | Bereitschaft Fragen | Bereitschaft Zeitaufwand | |
|---|---|---|---|---|---|
| Bauch | 1.00 | 0.87 | 0.68 | 0.72 | 0.47 |
| Kopf | 0.87 | 1.00 | 0.73 | 0.75 | 0.49 |
| Hand | 0.68 | 0.73 | 1.00 | 0.51 | 0.45 |
| Bereitschaft Fragen | 0.72 | 0.75 | 0.51 | 1.00 | 0.39 |
| Bereitschaft Zeitaufwand | 0.47 | 0.49 | 0.45 | 0.39 | 1.00 |
In der Korrelationstabelle fällt vor allem auf, dass Bauch und Kopf mit der Bereitschaft (Variable: Fragen) korrelieren, mit Werten 0.72 und 0.75. Außerdem erkennt man, dass die Bereitschaft im Bezug auf den Zeitaufwand geringer, aber ausgeglichener korreliert ist.
model_komp_1 <- lm(KK03_09 ~ KKK_01 + KKK_02 + KKK_03, data = data_komponenten_scaled)
summary(model_komp_1)
##
## Call:
## lm(formula = KK03_09 ~ KKK_01 + KKK_02 + KKK_03, data = data_komponenten_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.88174 -0.34548 -0.02554 0.43862 1.84015
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.908e-16 3.514e-02 0.000 1.0000
## KKK_01 3.243e-01 7.131e-02 4.548 7.56e-06 ***
## KKK_02 5.460e-01 7.613e-02 7.173 4.72e-12 ***
## KKK_03 -1.119e-01 5.207e-02 -2.149 0.0324 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6479 on 336 degrees of freedom
## Multiple R-squared: 0.584, Adjusted R-squared: 0.5803
## F-statistic: 157.2 on 3 and 336 DF, p-value: < 2.2e-16
model_komp_1_coef <- round(coef(model_komp_1), decimal)
Hier können wir sehen, dass sich das Bild aus der Korrelationstabelle erneut bestätigt. Es lässt sich erkennen, dass alle 3 Komponenten einen statistisch signifikanten Einfluss haben. Dabei besteht ein Bestimmtheitsmaß (R-Squared) von 0.58.
Wir können also die Nullhypothese verwerfen.
model_komp_2 <- lm(BE03_01 ~ KKK_01 + KKK_02 + KKK_03, data = data_komponenten_scaled)
summary(model_komp_2)
##
## Call:
## lm(formula = BE03_01 ~ KKK_01 + KKK_02 + KKK_03, data = data_komponenten_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.5984 -0.5359 -0.1537 0.3718 5.1520
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.258e-17 4.676e-02 0.000 1.00000
## KKK_01 1.683e-01 9.490e-02 1.774 0.07703 .
## KKK_02 2.091e-01 1.013e-01 2.064 0.03983 *
## KKK_03 1.816e-01 6.929e-02 2.620 0.00919 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8622 on 336 degrees of freedom
## Multiple R-squared: 0.2632, Adjusted R-squared: 0.2566
## F-statistic: 40 on 3 and 336 DF, p-value: < 2.2e-16
Hier entsteht ein Widerspruch zur eben erfolgten Analyse. Es lässt sich erkennen, dass die Komponenten “Kopf” und “Hand” einen statistisch signifikanten Einfluss haben. Dabei besteht ein Bestimmtheitsmaß (R-Squared) von 0.26. Da dies aber vergleichsweise gering ist, sollte man die vorherige Analyse als ausschlaggebender erachten.
Nun soll erörtert werden ob die Hypothesen verworfen werden können oder nicht.
Nullhypothese: \(H_{0}\): Selbstwirksamkeit hat keinen Einfluss auf die Integrationsbereitschaft.
Gegebhypothese: \(H_{1}\): Selbstwirksamkeit hat einen Einfluss auf die Integrationsbereitschaft.
Da leider in beiden Regressionsanalysen ein p-Wert von über 0,05 festgestellt wurde, kann die Nullhypothese nicht verworfen werden.
Nullhypothese: \(H_{0}\): Eine hohe Openness hat keinen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese: H0: Eine hohe Openness hat einen Einfluss auf die Integrationsbereitschaft.
Da leider in beiden Regressionsanalysen ein p-Wert von über 0,05 festgestellt wurde, kann die Nullhypothese nicht verworfen werden.
Nullhypothese: \(H_{0}\): Eine hohe Wertung im 3-K-Modell hat keinen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese: \(H_{1}\): Eine hohe Wertung im 3-K-Modell hat einen Einfluss auf die Integrationsbereitschaft.
Da in beiden Regressionsanalysen ein p-Wert von unter 0,05 festgestellt wurde, kann die Nullhypothese verworfen werden.
Nullhypothese: \(H_{0}\): Eine positive Einstellung gegenüber Integration hat keinen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese: \(H_{1}\): Eine positive Einstellung gegenüber Integration hat einen Einfluss auf die Integrationsbereitschaft.
Da nur in einer Regressionsanalyse ein p-Wert von unter 0,05 festgestellt wurde, ist fraglich ob die Nullhypothese verworfen werden kann. Dabei gilt es zu erwägen, ob die Bereitschaft anhand eines Zeitaufwands zu messen reliabel und valide ist.
Die Null-Hypothese bezüglich des Einfluss des 3-K-Modells auf die Integrationsbereitschaft konnte verworfen werden. Auch die Nullhypothese bezüglich des Einfluss der generellen Einstellung zur Integration konnte (teilweise) verworfen werden.
Interessant dabei sind die einzelnen Einflüsse der Komponenten des 3-K-Modells, vor allem der negative Einfluss des Komponenten Hand.
Da nur die Null-Hypothese bezüglich des Einfluss des 3-K-Modells eindeutig verworfen werden konnte, gilt es sich zu fragen, warum die restlichen Hypothesen nicht verworfen werden konnten.
Dieser Abschnitt soll nun weitere mögliche Zusammenhänge und Analysemöglichkeiten aufzeigen.
# Standardize
regression_data_age <- select(data, AL02_01, KK03_09, BE03_01)
alter1 <- regression_data_age %>% group_by(AL02_01) %>% summarise(avg = mean(KK03_09))
alter2 <- regression_data_age %>% group_by(AL02_01) %>% summarise(avg = mean(BE03_01))
ggplot(data = alter2, aes(AL02_01, avg)) + labs(y = "Zeitaufwand in Stunden",
x = "Alter") + geom_point()
Im Graphen könnte man einen leichten negativen Zusammenhang zwischen Alter und Integrationsbereitschaft (Zeitaufwand in Stunden) vermuten. Daher lässt sich folgende Hypothese modellieren.
Nullhypothese:
\(H_{0}\): Ein höheres Alter hat keinen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese:
\(H_{1}\): Ein höheres Alter hat einen Einfluss auf die Integrationsbereitschaft.
labels <- c("Alter", "Bereitschaft Fragen", "Bereitschaft Zeitaufwand")
cor_age <- round(cor(regression_data_age), decimal)
rownames(cor_age) <- labels
colnames(cor_age) <- labels
knitr::kable(cor_age, format = "html", table.attr = "class=\"table-th-left\"")
| Alter | Bereitschaft Fragen | Bereitschaft Zeitaufwand | |
|---|---|---|---|
| Alter | 1.00 | -0.07 | -0.15 |
| Bereitschaft Fragen | -0.07 | 1.00 | 0.39 |
| Bereitschaft Zeitaufwand | -0.15 | 0.39 | 1.00 |
Man sieht in der Korrelationstabelle nur sehr geringe Korrelationen. Allerdings sind diese negativ, was die Abwärtstrend-Vermutung aus dem Graphen noch einmal untermauert.
alter1_scaled <- data.frame(scale(alter1))
alter2_scaled <- data.frame(scale(alter2))
model_alter1 <- lm(avg ~ AL02_01, data = alter1_scaled)
summary(model_alter1)
##
## Call:
## lm(formula = avg ~ AL02_01, data = alter1_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.92040 -0.43982 -0.09157 0.57911 1.79636
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.123e-16 1.536e-01 0.000 1.000
## AL02_01 9.498e-02 1.555e-01 0.611 0.545
##
## Residual standard error: 1.008 on 41 degrees of freedom
## Multiple R-squared: 0.009021, Adjusted R-squared: -0.01515
## F-statistic: 0.3732 on 1 and 41 DF, p-value: 0.5446
model_alter2 <- lm(avg ~ AL02_01, data = alter2_scaled)
summary(model_alter2)
##
## Call:
## lm(formula = avg ~ AL02_01, data = alter2_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.1350 -0.5448 -0.1591 0.2594 3.7063
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.379e-17 1.528e-01 0.000 1.000
## AL02_01 -1.394e-01 1.546e-01 -0.901 0.373
##
## Residual standard error: 1.002 on 41 degrees of freedom
## Multiple R-squared: 0.01943, Adjusted R-squared: -0.004485
## F-statistic: 0.8125 on 1 and 41 DF, p-value: 0.3727
Hier sieht man in beiden Fällen keinen p-Wert von unter 0,05. Damit kann man die Nullhypothese bezüglich des Einfluss des Alters auf Integrationsbereitschaft nicht verwerfen.
Es soll der Einfluss der Big-Five Faktoren auf die Integrationsbereitschaft gemessen werden.
Nullhypothese:
\(H_{0}\): Die Big-Five Faktoren haben keinen Einfluss auf die Integrationsbereitschaft.
Gegenhypothese:
\(H_{1}\): Mindestens einer der Big-Five Faktoren hat einen Einfluss auf die Integrationsbereitschaft.
regression_data_bf <- dplyr::select(data, BF_F_01, BF_F_02, BF_F_03, BF_F_04,
BF_F_05, KK03_09, BE03_01)
labels <- c(labels_bf, "Bereitschaft Fragen", "Bereitschaft Zeitaufwand")
cor_bf <- round(cor(regression_data_bf), decimal)
rownames(cor_bf) <- labels
colnames(cor_bf) <- labels
knitr::kable(cor_bf, format = "html", table.attr = "class=\"table-th-left\"")
| Extraversion | Verträglichkeit | Gewissenhaftigkeit | Neurotizismus | Offenheit | Bereitschaft Fragen | Bereitschaft Zeitaufwand | |
|---|---|---|---|---|---|---|---|
| Extraversion | 1.00 | -0.23 | 0.10 | 0.13 | 0.10 | 0.20 | 0.17 |
| Verträglichkeit | -0.23 | 1.00 | -0.07 | 0.04 | -0.04 | 0.02 | 0.02 |
| Gewissenhaftigkeit | 0.10 | -0.07 | 1.00 | 0.01 | 0.16 | 0.03 | -0.01 |
| Neurotizismus | 0.13 | 0.04 | 0.01 | 1.00 | 0.04 | 0.14 | 0.05 |
| Offenheit | 0.10 | -0.04 | 0.16 | 0.04 | 1.00 | 0.21 | 0.10 |
| Bereitschaft Fragen | 0.20 | 0.02 | 0.03 | 0.14 | 0.21 | 1.00 | 0.39 |
| Bereitschaft Zeitaufwand | 0.17 | 0.02 | -0.01 | 0.05 | 0.10 | 0.39 | 1.00 |
In der Tabelle kann man erkennen, dass alle Big-Five Faktoren eine nur gerine Korrelation mit der Integrationsbereitschaft haben. Dies gibt Anlass zur Vermutung, dass die Nullhypothese wahrscheinlich nicht verworfen werden kann.
regression_data_bf_scaled <- data.frame(scale(regression_data_bf))
model_bf_1 <- lm(KK03_09 ~ BF_F_01 + BF_F_02 + BF_F_03 + BF_F_04 + BF_F_05,
data = regression_data_bf_scaled)
model_bf_2 <- lm(BE03_01 ~ BF_F_01 + BF_F_02 + BF_F_03 + BF_F_04 + BF_F_05,
data = regression_data_bf_scaled)
summary(model_bf_1)
##
## Call:
## lm(formula = KK03_09 ~ BF_F_01 + BF_F_02 + BF_F_03 + BF_F_04 +
## BF_F_05, data = regression_data_bf_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.4346 -0.4178 0.1516 0.7328 1.4238
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.799e-16 5.211e-02 0.000 1.000000
## BF_F_01 1.806e-01 5.456e-02 3.309 0.001037 **
## BF_F_02 6.139e-02 5.384e-02 1.140 0.254965
## BF_F_03 -2.007e-02 5.314e-02 -0.378 0.705869
## BF_F_04 1.060e-01 5.282e-02 2.007 0.045560 *
## BF_F_05 1.897e-01 5.308e-02 3.574 0.000404 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9609 on 334 degrees of freedom
## Multiple R-squared: 0.09029, Adjusted R-squared: 0.07667
## F-statistic: 6.63 on 5 and 334 DF, p-value: 6.671e-06
summary(model_bf_2)
##
## Call:
## lm(formula = BE03_01 ~ BF_F_01 + BF_F_02 + BF_F_03 + BF_F_04 +
## BF_F_05, data = regression_data_bf_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.3881 -0.6121 -0.2551 0.3225 5.4916
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.679e-17 5.354e-02 0.000 1.00000
## BF_F_01 1.719e-01 5.606e-02 3.066 0.00235 **
## BF_F_02 5.492e-02 5.531e-02 0.993 0.32152
## BF_F_03 -3.887e-02 5.459e-02 -0.712 0.47697
## BF_F_04 2.250e-02 5.427e-02 0.415 0.67869
## BF_F_05 8.790e-02 5.453e-02 1.612 0.10794
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9872 on 334 degrees of freedom
## Multiple R-squared: 0.03975, Adjusted R-squared: 0.02538
## F-statistic: 2.766 on 5 and 334 DF, p-value: 0.01829
Bei der Analyse der multiplen Regression bei der alle Big-Five-Faktoren als Prädiktoren für die Integrationsbereitschaft gemessen werden, wird gezeigt, dass die bei Modelle mit Bestimmtheitsmaßen von 0.09 bzw. 0.04 nur einen geringen Aussagegehalt haben und damit die Nullhypothese nicht verworfen werden kann.
Es soll untersucht werden ob die Reihenfolge des Hinzufügens der Prädiktoren einen Einfluss auf das Regressionsmodell hat.
model1_ordered <- lm(KK03_09 ~ SE + BF_F_04 + INT + KKK, data = regression_data_1_scaled)
summary(model1_ordered)
##
## Call:
## lm(formula = KK03_09 ~ SE + BF_F_04 + INT + KKK, data = regression_data_1_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.91109 -0.36732 -0.01106 0.46388 2.01047
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.013566 0.142880 0.095 0.924
## SE -0.017479 0.036997 -0.472 0.637
## BF_F_04 -0.003795 0.038630 -0.098 0.922
## INT 0.225110 0.044957 5.007 8.95e-07 ***
## KKK 0.591132 0.045272 13.057 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6756 on 335 degrees of freedom
## Multiple R-squared: 0.5489, Adjusted R-squared: 0.5435
## F-statistic: 101.9 on 4 and 335 DF, p-value: < 2.2e-16
Man kann hier keinen Unterschied zu den bisherigen Ergebnissen feststellen.
model2_ordered <- lm(BE03_01 ~ SE + BF_F_04 + INT + KKK, data = regression_data_2_scaled)
summary(model2_ordered)
##
## Call:
## lm(formula = BE03_01 ~ SE + BF_F_04 + INT + KKK, data = regression_data_2_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.5356 -0.5358 -0.1612 0.3421 5.1469
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.16254 0.18234 0.891 0.373
## SE -0.01548 0.04721 -0.328 0.743
## BF_F_04 -0.04547 0.04930 -0.922 0.357
## INT 0.02194 0.05737 0.382 0.702
## KKK 0.51016 0.05777 8.830 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8622 on 335 degrees of freedom
## Multiple R-squared: 0.2654, Adjusted R-squared: 0.2566
## F-statistic: 30.26 on 4 and 335 DF, p-value: < 2.2e-16
Auch hier lässt sich kein Unterschied feststellen.
Dies legt den Verdacht nahe, dass die
lmFunktion von R die Reihenfolge egalisiert.
regression_data_seint <- dplyr::select(data, SE, INT)
Interessant könnte auch noch die Selbstwirksamkeit als Faktor für die Einstellung zur Integration sein. Dies soll nun untersucht werden.
Nullhypothese:
\(H_{0}\): Eine höhere Selbstwirksamkeit hat keinen Einfluss auf die grundlegende Einstellung zur Integration.
Gegenhypothese:
\(H_{1}\): Eine höhere Selbstwirksamkeit hat einen Einfluss auf die grundlegende Einstellung zur Integration.
labels <- c("Selbstwirksamkeit", "Einstellung zur Integration")
cor_seint <- round(cor(regression_data_seint), decimal)
rownames(cor_seint) <- labels
colnames(cor_seint) <- labels
knitr::kable(cor_seint, format = "html", table.attr = "class=\"table-th-left\"")
| Selbstwirksamkeit | Einstellung zur Integration | |
|---|---|---|
| Selbstwirksamkeit | 1.00 | 0.07 |
| Einstellung zur Integration | 0.07 | 1.00 |
Die Korrelationstabelle zeigt nur eine gerine Korrelation von 0.07. Damit kann man vermuten, dass sich die Nullhypothese wahrscheinlich nicht verwerfen lässt.
regression_data_seint_scaled <- data.frame(scale(regression_data_seint))
model_seint <- lm(INT ~ SE)
summary(model_seint)
##
## Call:
## lm(formula = INT ~ SE)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7194 -0.5292 0.1154 0.5373 1.5722
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.098180 0.340803 9.091 <2e-16 ***
## SE 0.012679 0.009479 1.337 0.182
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8949 on 338 degrees of freedom
## Multiple R-squared: 0.005265, Adjusted R-squared: 0.002322
## F-statistic: 1.789 on 1 and 338 DF, p-value: 0.182
Auch hier wird ein p-Wert erreicht, der nicht unter 0,05 liegt. Daher kann auch hier die Nullhypothese nicht verworfen werden.
# calculate self-efficacy score
data_done <- dplyr::mutate(data_done, SE = SE01_01 + SE01_02 + SE01_03 + SE01_04 +
SE01_05 + SE01_06 + SE01_07 + SE01_08 + SE01_09 + SE01_10)
# calculate Big Five Factors F_01 Extraversion
data_done <- dplyr::mutate(data_done, BF_F_01 = round((recode(BF01_01) + BF01_06)/2,
decimal))
# F_02 Verträglichkeit
data_done <- dplyr::mutate(data_done, BF_F_02 = round((recode(BF01_04) + BF01_09)/2,
decimal))
# F_03 Gewissenhaftigkeit
data_done <- dplyr::mutate(data_done, BF_F_03 = round((recode(BF01_03) + BF01_08)/2,
decimal))
# F_04 Neurotizismus
data_done <- dplyr::mutate(data_done, BF_F_04 = round((recode(BF01_05) + BF01_10)/2,
decimal))
# F_05 Offenheit
data_done <- dplyr::mutate(data_done, BF_F_05 = round((recode(BF01_07) + BF01_02)/2,
decimal))
# calculate integration
data_done <- dplyr::mutate(data_done, INT = round((AL05_01 + AL05_02 + AL05_03)/3,
decimal))
# calculate 3K model
data_done <- dplyr::mutate(data_done, KKK_01 = round((KK03_02 + KK03_03 + KK03_06)/3,
decimal))
data_done <- dplyr::mutate(data_done, KKK_02 = round((KK03_01 + KK03_05 + KK03_07)/3,
decimal))
data_done <- dplyr::mutate(data_done, KKK_03 = round((KK03_04 + KK03_08)/2,
decimal))
data_done <- dplyr::mutate(data_done, KKK = round((KKK_01 + KKK_02 + KKK_03)/3,
decimal))
regression_data_done_1 <- dplyr::select(data_done, BF_F_04, SE, KKK, INT, KK03_09)
regression_data_done_2 <- dplyr::select(data_done, BF_F_04, SE, KKK, INT, BE03_01)
regression_data_done_1_scaled <- data.frame(scale(regression_data_done_1))
regression_data_done_2_scaled <- data.frame(scale(regression_data_done_2))
Zum Schluss soll noch gezeigt werden, dass das Entfernen der Ausreißer beim Zeitaufwand keinen Einfluss auf das End-Ergebnis hat.
labels = c("Openness", "Selbstwirksamkeit", "3-K-Modell", "Einstellung zur Integration",
"Bereitschaft")
cor_1 <- round(cor(regression_data_done_1), decimal)
rownames(cor_1) <- labels
colnames(cor_1) <- labels
knitr::kable(cor_1, format = "html", table.attr = "class=\"table-th-left\"")
| Openness | Selbstwirksamkeit | 3-K-Modell | Einstellung zur Integration | Bereitschaft | |
|---|---|---|---|---|---|
| Openness | 1.00 | 0.03 | 0.18 | 0.18 | 0.13 |
| Selbstwirksamkeit | 0.03 | 1.00 | 0.14 | 0.04 | 0.08 |
| 3-K-Modell | 0.18 | 0.14 | 1.00 | 0.55 | 0.72 |
| Einstellung zur Integration | 0.18 | 0.04 | 0.55 | 1.00 | 0.54 |
| Bereitschaft | 0.13 | 0.08 | 0.72 | 0.54 | 1.00 |
Hier ergibt sich ein ähnliches Bild wie ohne die Ausreißer. Das 3-K-Modell hat eine hohe Korrelation, die Einstellung zur Integration eine mittlere und Openness und Selbstwirksamkeit keine Korrelation zur Integrationsbereitschaft.
cor_2 <- round(cor(regression_data_done_2), decimal)
rownames(cor_2) <- labels
colnames(cor_2) <- labels
knitr::kable(cor_2, format = "html", table.attr = "class=\"table-th-left\"")
| Openness | Selbstwirksamkeit | 3-K-Modell | Einstellung zur Integration | Bereitschaft | |
|---|---|---|---|---|---|
| Openness | 1.00 | 0.03 | 0.18 | 0.18 | -0.04 |
| Selbstwirksamkeit | 0.03 | 1.00 | 0.14 | 0.04 | 0.07 |
| 3-K-Modell | 0.18 | 0.14 | 1.00 | 0.55 | 0.12 |
| Einstellung zur Integration | 0.18 | 0.04 | 0.55 | 1.00 | 0.01 |
| Bereitschaft | -0.04 | 0.07 | 0.12 | 0.01 | 1.00 |
Hier zeigt sich nun, dass durch die Ausreißer keiner der Faktoren eine hohe Korrelation mit der Bereitschaft hat.
model1 <- lm(KK03_09 ~ SE + BF_F_04 + KKK + INT, data = regression_data_done_1_scaled)
summary(model1)
##
## Call:
## lm(formula = KK03_09 ~ SE + BF_F_04 + KKK + INT, data = regression_data_done_1_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.94329 -0.36977 -0.01207 0.46439 1.97834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.321e-17 3.658e-02 0.000 1.000
## SE -5.311e-03 3.701e-02 -0.143 0.886
## BF_F_04 -1.254e-02 3.743e-02 -0.335 0.738
## KKK 6.028e-01 4.453e-02 13.537 < 2e-16 ***
## INT 2.097e-01 4.421e-02 4.744 3.09e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6804 on 341 degrees of freedom
## Multiple R-squared: 0.5425, Adjusted R-squared: 0.5371
## F-statistic: 101.1 on 4 and 341 DF, p-value: < 2.2e-16
model1_coef <- round(coef(model1), decimal)
Hier lässt kaum ein Unterschied zum Modell ohne Ausreißer erkennen. Nur das 3-K-Modell und die generelle Einstellung zu Integration im Modell einen statistisch signifikanten Einfluss auf die Integrationsbereitschaft haben. Dabei besteht ein Bestimmtheitsmaß (R-Squared) von 0.54.
model2 <- lm(BE03_01 ~ SE + BF_F_04 + KKK + INT, data = regression_data_done_2_scaled)
summary(model2)
##
## Call:
## lm(formula = BE03_01 ~ SE + BF_F_04 + KKK + INT, data = regression_data_done_2_scaled)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.5439 -0.1989 -0.1053 -0.0108 14.9926
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.540e-17 5.341e-02 0.000 1.0000
## SE 5.537e-02 5.404e-02 1.025 0.3063
## BF_F_04 -5.261e-02 5.465e-02 -0.963 0.3365
## KKK 1.603e-01 6.503e-02 2.465 0.0142 *
## INT -7.255e-02 6.457e-02 -1.124 0.2619
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9935 on 341 degrees of freedom
## Multiple R-squared: 0.02431, Adjusted R-squared: 0.01287
## F-statistic: 2.124 on 4 and 341 DF, p-value: 0.07742
model2_coef <- round(coef(model1), decimal)
Dieses Modell zeigt, dass die Ausreißer keinen wirklichen Unterschied machen und nur das Bestimmtheitsmaß (R-Squared) auf 0.02 verschlechtern.
Die Ausreißer ändern nichts am Ergebnis, sondern würden nur das Bestimmtheitsmaß und somit die Aussagekraft verschlechtern